---
title: "Oficina GECAT - Análise de Regressão"
author: "Vanessa, Lauren e Patrícia."
date: "24/07/2023"
output: html_document
---

# O que é Regressão Linear?

Estudo da dependência de uma variável em relação a uma ou mais variáveis, visando estimar e/ou prever o valor médio (da população) da variável dependente em termos dos valores conhecidos ou fixados.

A origem da regressão ocorreu com Francis Galton em que no estudo de Eugenia ele gostaria de verificar se características físicas como altura passavam de pai para filho. Galton descobriu que a estatura dos filhos não tende a refletir a de seus pais, mas sim à média da população (regressão à média ou "regressão à mediocridade").

# Variáveis

## Nomenclaturas Usadas para as Variáveis na Regressão

|                     |                       |
|:-------------------:|:---------------------:|
| Variável Dependente | Variável Independente |
| Variável Explicada  | Variável Explicativa  |
|  Variável Prevista  |       Previsor        |
|     Regressando     |       Regressor       |
|  Variável Resposta  |       Estímulo        |
|  Variável Endógena  |   Variável Exógena    |
|        Saída        |        Entrada        |
| Variável Controlada | Variável de Controle  |

### Exemplificando

##### <https://periodicos.ufpb.br/ojs2/index.php/recfin/article/view/41757/22596>

> INFLUÊNCIA DA ESTRUTURA DE AUDITORIA, CONSELHO DE ADMINISTRAÇÃO E QUALIDADE DA INFORMAÇÃO CONTÁBIL NO ÍNDICE MARKET TO BOOK VALUE DE EMPRESAS BRASILEIRAS LISTADAS NA B3

*Objetivo do estudo:* verificar a influência da estrutura de auditoria, conselho de administração e qualidade da informação contábil no índice Market to Book Value de empresas brasileiras listadas na B3.

**𝑀𝑇𝐵 = 𝛽~0~ + 𝛽~1~𝑅𝑒𝑝𝐴𝑢𝑑 + 𝛽~2~𝐶𝑜𝑚𝐴𝑢𝑑 + 𝛽~3~𝐻𝐴𝑢𝑑 + 𝛽~4~𝐻𝑁𝐴𝑢𝑑 + 𝛽~5~𝑇𝑎𝑚𝐶𝐴 + 𝛽~6~𝐺𝑒𝑛𝐶𝐴 + 𝛽~7~𝐷𝑢𝑎𝑙𝐷 + 𝛽~8~𝑅𝑒𝑢𝑛𝐶𝐴 + 𝛽~9~𝐸𝑥𝑝𝐶𝐴 + 𝛽~10~𝑄𝑢𝐼𝐶 + 𝜺**

##### <https://www.repec.org.br/repec/article/view/2432/1576>

> Os Principais Assuntos de Auditoria Importam? Uma análise de sua associação com o Gerenciamento de Resultados

*Objetivo do estudo:* analisar a relação entre os Principais Assuntos de Auditoria (PAAs) reportados e a prática de gerenciamento de resultados das empresas brasileiras.

![](equação%201.png)

# Natureza dos Dados

![](cross-section%20x%20painel.png)

# Regressão Linear

Estuda a relação entre a variável dependente e uma ou várias variáveis independentes.

![](regressão%20linear.png)

A relação é representada por meio de um modelo matemático, ou seja, por uma equação que associa a variável dependente com a/as variáveis independentes.

```         
Modelo é linear nos parâmetros. Não há log ou expoentes nos betas.
```

**Linearidade**

A primeira suposição é que a relação entre a variável dependente e as independentes é linear.

![](Linearidade%20variáveis.png){width="560"}

O modelo de regressão é linear nos parâmetros, embora possa não ser linear nas variáveis - α e β são lineares e não porque Y é função linear do X.

![](Linearidade%20nos%20parâmetros.png){width="558"}

## O que é regressão linear SIMPLES?

Tentativa de estabelecer uma equação matemática linear (linha reta) que descreva o relacionamento entre uma variável dependente e uma independente.

A equação representativa do modelo de regressão linear simples é dada por:

![](equação%20simples.png)

^Fonte:\ https://www.alura.com.br/artigos/desvendando-a-regressao-linear^

Onde a variável Y é a variável dependente; X é a regressora ou variável explicativa ou variável independente; β são parâmetros desconhecidos a serem estimados; e εᵢ é o erro de variabilidade existente em Y e que não é explicada por X.

![](gráfico%202.png)

^Fonte:\ https://www.alura.com.br/artigos/desvendando-a-regressao-linear^

## O que é regressão linear MÚLTIPLA?

Tentativa de estabelecer uma equação matemática linear (linha reta) que descreva o relacionamento entre uma variável dependente e duas ou mais variáveis independentes.

![](equação%20multipla.jpg)

^Fonte:\ https://www.alura.com.br/artigos/desvendando-a-regressao-linear^

Onde a variável Y é a variável dependente; X~1~ , X~2.~,\..., X~n~  são as regressoras ou variáveis explicativas ou variáveis independentes para a i-ésima observação de p-regressores; β são parâmetros desconhecidos a serem estimados; e εᵢ é o erro de variabilidade existente em Y e que não é explicada por X.

***Interações***

Podem existir interações entre as variáveis, tornando o modelo mais complexo:

**𝐴𝑄~𝑖𝑡~ = 𝛽~0~ + 𝐷~1~𝑃𝑂𝑆𝑇~𝑡~ + 𝐷~2~𝐸𝑚𝑒𝑟𝑔~𝑖~ + 𝐷~3~𝑃𝑂𝑆𝑇~𝑡~∗𝐸𝑚𝑒𝑟𝑔~𝑖~ + Σ𝛽~𝑘~𝐶𝑜𝑛𝑡𝑟𝑜𝑙𝑠~𝑖𝑡~ + 𝜀~𝑖𝑡~**

Neste caso, **𝑃𝑂𝑆𝑇~𝑡~∗𝐸𝑚𝑒𝑟𝑔~𝑖~ ,** X~1\*~X~2~, representa a interação existente entre as variáveis X~1~ e X~2~. Se a interação existir e for significativa, o efeito de X~1~ na resposta média depende do nível X~2~ e vice-versa.

## Método dos Mínimos Quadrados Ordinários (MQO) ou Ordinary Least Squares (OLS)

Atribuído a Carl Friedrich Gauss, consiste na obtenção dos estimadores dos coeficientes de regressão β~0~ e β~1~, minimizando os resíduos do modelo de regressão linear.

![](gráfico%201.png)

^Fonte:\ https://www.alura.com.br/artigos/desvendando-a-regressao-linear^

O método propõe encontrar os valores de β~0~ e β~1~ para os quais a soma dos quadrados dos resíduos (SQE) é mínima.

## Como operacionalizar no R?

> Key Audit Matters and Audit Quality: Evidence on Emerging and Developed Markets

*Objetivo do estudo:* to analyze the effect of adopting Key Audit Matters on Audit Quality in both emerging and developed markets.

**𝐴𝑄~𝑖𝑡~ = 𝛽~0~ + 𝐷~1~𝑃𝑂𝑆𝑇~𝑡~ + 𝐷~2~𝐸𝑚𝑒𝑟𝑔~𝑖~ + 𝐷~3~𝑃𝑂𝑆𝑇~𝑡~∗𝐸𝑚𝑒𝑟𝑔~𝑖~ + Σ𝛽~𝑘~𝐶𝑜𝑛𝑡𝑟𝑜𝑙𝑠~𝑖𝑡~ + 𝜀~𝑖𝑡~**

### Instalar e carregar pacotes

```{r pacotes, echo=TRUE, message=FALSE, warning=FALSE, paged.print=FALSE}
pacotes <- c("AER","base", "basictabler", "bibtex","BiocManager", "bookdown","caper", "car","caret", "conflicted","correlation","corrplot","cowplot","DescTools","distill","dplyr","encrptr","factoextra","FactoMineR", "faraway","fastDummies","flextable","foreign","gdata", "ggrepel","ggtree",     "ggplot2","ggpubr","graphics", "grid","gridExtra","gtsummary","Hmisc","httr2","jsmodule", "jtools","knitr","kableExtra","knitLatex","lmtest", "lubridate","magick","margins", "marginaleffects", "MASS", "MatchIt","mfx","mgcv","minqa","modelr" ,"mgcv","nnet","nortest","OddsPlotty","papaja", "pandoc","palmerpenguins","performance", "pglm","plm","plotly","plotly", "pROC","pscl","psych","rddtools","readr", "regclass","rJava", "readxl","RefManageR", "remotes", "reshape2", "repos", "report","ReporteRs","reshape2","rgl","rlang","rmarkdown","Rmisc","ROCR","RSelenium", "scales","sjlabelled", "stargazer","stats","stringr", "stringi","texreg","tidyr","tidyverse", "tinytex","tseries","truncnorm", "visreg","viridis", "xfun","xlsx","xtable","wesanderson", "writexl","vdr")
```

```{r instalando, echo=TRUE, message=FALSE, warning=FALSE, paged.print=FALSE}
options(repos = "https://cran.rstudio.com/")
if(sum(as.numeric(!pacotes %in% installed.packages())) != 0){
  instalador <- pacotes[!pacotes %in% installed.packages()]
  for(i in 1:length(instalador)) {
    install.packages(instalador, dependencies = T)
    break()}
  sapply(pacotes, require, character = T)
} else {
  sapply(pacotes, require, character = T)
}
```

### Importar base de dados

-   Importar o "R Workspace"

    -   formato .RData
    -   Item do Environment "pastinha"
    -   Comando

```{r abrir base, echo=TRUE, message=FALSE, warning=FALSE, , echo=TRUE, paged.print=FALSE}
load("C:/Users/Usuário/OneDrive/Oficina Regressão/Base oficina regressão_GECAT.RData")
```

### Criar bases para trabalho

Criar uma base para cada ano

```{r}
Base_2018 <- Base_GECAT %>%
  dplyr::filter(Year==2018)

Base_2019 <- Base_GECAT %>%
  dplyr::filter(Year==2019)

Base_2020 <- Base_GECAT %>%
  dplyr::filter(Year==2020)
```

### Rodar os modelos

| Variável                                   | Tipo                               |
|---------------------------------------|---------------------------------|
| Qualidade da Auditoria (**DA** e **ACCY**) | Variável Dependente                |
| Adoção da Norma de PAA (**POST**)          | Variável Independente de Interesse |
| Tratamento - Países Emergentes (**Emerg**) | Variável Independente de Interesse |
| Tamanho da Empresa (**SIZE**)              | Variável Independente de Controle  |
| ROA (**ROA**)                              | Variável Independente de Controle  |
| Ciclo de Vida da Empresa (**LCS**)         | Variável Independente de Controle  |
| Quantidade de Analistas (**Estim**)        | Variável Independente de Controle  |

```         
*Lembrando que é necessário olhar para os dados antes (outliers, distribuição, estatística descritiva, correlação)
```

[Testes para a variável dependente de Accruals Discricionários (DA)]{.underline}

Regressão para apenas **2018**

```{r}
mod_DA_2018 <- lm(formula = DA_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + factor(LCS),
                  data = Base_2018)

summary(mod_DA_2018)
```

Regressão para apenas **2019**

```{r}
mod_DA_2019 <- lm(formula = DA_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + factor(LCS),
                   data = Base_2019)

summary(mod_DA_2019)
```

Regressão para apenas **2020**

```{r}
mod_DA_2020 <- lm(formula = DA_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + factor(LCS),
                   data = Base_2020)

summary(mod_DA_2020)
```

Regressão para **Dados em Painel**

```{r}
mod_DA_Painel <- plm(formula = DA_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + factor(LCS),
                   data = Base_GECAT, 
                       index = c ("Ticker","Year","Country"),
                       model = "pooling")

summary(mod_DA_Painel)
```

[Testes para a variável dependente de Acurácia das Previsões de Analistas (ACCY)]{.underline}

```{r}
# Regressão para 2018
mod_ACCY_2018 <- lm(formula = ACCY_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + Estim + factor(LCS),
                   data = Base_2018)

# Regressão para 2019
mod_ACCY_2019 <- lm(formula = ACCY_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + Estim + factor(LCS),
                   data = Base_2019)

# Regressão para 2020
mod_ACCY_2020 <- lm(formula = ACCY_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + Estim + factor(LCS),
                   data = Base_2020)

# Regressão para Dados em Painel
mod_ACCY_Painel <- plm(formula = ACCY_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + Estim + factor(LCS),
                   data = Base_GECAT, 
                       index = c ("Ticker","Year","Country"),
                       model = "pooling")

# Visualizando os resultados
summary(mod_ACCY_2018)
summary(mod_ACCY_2019)
summary(mod_ACCY_2020)
summary(mod_ACCY_Painel)
```

## Quais os principais parâmetros e preocupações para uso da técnica?

Com relação às condições necessárias para que os estimadores sejam BLUE (*Best linear unbiased estimator* ou Melhores Estimadores Lineares Não Viesados), é preciso respeitar as seguintes suposições de Gauss-Markov:

### #1 Distribuição dos resíduos

```         
A média dos erros das variáveis seja igual a zero
```

Valor médio do termo de erro é zero: não há nenhum tipo de desvio na curva, de modo que os erros são independentes com média nula. Implica que não existe viés de especificação ou erro de especificação no modelo usado na análise empírica. Em outras palavras, o modelo de regressão está especificado corretamente.

![](A1.1.png)

Os erros apresentam distribuição normal: não é um pressuposto necessário para que os estimadores de MQO sejam BLUE, mas necessário para que as inferências sejam válidas.

![](A1.2.png)

### #2 Multicolinearidade

```         
As variáveis não dependem uma da outra
```

![](A2.1.png)

Ausência de Colinearidade e Multicolinearidade: quando as variáveis não dependem uma da outra, devendo ter exogeneidade (não pode ter endogeneidade: quando um aumento, o outro aumenta junto. Para corrigir isso, existe o modelo de Hausman-Taylor).

![](A2.2.png)

### #3 Heterocedasticidade

![](A3.1.png)

![](A3.2.png)

```         
A variância do erro é constante ao longo de todas as observações
```

Homocedasticidade ou variância constante: homocedastidade = igual (homo) dispersão (cedasticidade) = variância igual

![](A3.3.png)

**Como solucionar?**

-   Estimador aproximado de heterocedasticidade de White para a Variância do Estimador de Mínimos Quadrados (apropriado somente para amostras grandes)

-   Estimação via ***MÍNIMOS QUADRADOS GENERALIZADOS (GLS)***

### #4 Autocorrelação

![](A4.1.png)

```         
A covariância entre dois erros deve ser igual a zero
```

Ausência de Autocorrelação: não há autocorrelação entre os termos de erro, de modo que a covariância entre dois erros deve ser igual a zero (o erro independe do erro do passado). A autocorrelação é frequente em análise de séries temporais de dados espaciais.

![](A4.2.png)

## Qual a diferença entre Mínimos Quadrados ordinários (MQO/OLS) e Mínimos Quadrados Generalizados (GLS)?

O método dos mínimos quadrados generalizados (GLS, na sigla em inglês) é uma técnica para estimar parâmetros desconhecidos num modelo de regressão linear.

O método GLS é aplicado quando a variância dos erros não é a mesma (heteroscedasticidade), ou quando há certa correlação entre os resíduos.

### Como operacionalizar no R

#### Distribuição dos Resíduos

Anderson-Darling normality test H0: Há distribuição normal dos resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há distribuição normal dos resíduos.

```{r}
ad.test(mod_ACCY_Painel$residuals)

hist(mod_ACCY_Painel$residuals)
```

#### Multicolinearidade

Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.

E se o VIF for acima de 10, você pode assumir que os coeficientes de regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod_ACCY_Painel)
```

#### Heterocedasticidade

H0: homocedasticidade; p-value \> 0,05...

se p-valor \< 0,05 , rejeita-se a hipótese nula (homocedasticidade), logo há heterocedasticidade

H1: Heterocedasticidade; se p valor menor que 5%

Solução: rodar no lugar de mínimos quadrados generalizados, o mínimos quadrados ponderados -\> Solução: Método de mínimos quadrados ponderados que é um caso particular do método de mínimos quadrados generalizados (MQO), pode ser aplicado quando se diagnostica que a variância dos termos de erro depende da variável explicativa (Fávero & Belfiore).

```{r}
bptest(mod_ACCY_Painel)
```

#### Autocorrelação

H0: Ausência de autocorrelação entre os resíduos.

Com o p-value \< 0,05, podemos rejeitar a hipótese nula e concluir que existe autocorrelação entre os resíduos

```{r}
pbgtest(mod_ACCY_Painel)
```

# Especificação de Modelo em Painel

## Pooled

Modelo de regressão considerando que o intercepto do modelo e seus coeficientes angulares são constantes ao longo do tempo e no espaço, sendo que o termo de erro capta a diferença no tempo e entre os indivíduos.

★Este modelo agrupa/empilha todas as observações da base de dados, ignorando a estrutura de dados em painel.

★Todas as observações são tratadas como não correlacionadas para os indivíduos, com erros homocedásticos para com os indivíduos.

★Pode ser vista como uma forma mais simplista que desconsidera as dimensões de tempo e espaço combinados, ao mesmo tempo que estima a regressão pelo método dos Mínimos Quadrados Ordinários (MQO).

## Efeitos Fixos (EF ou FE)

Considera que os coeficientes angulares são constantes e o intercepto varia entre os indivíduos.

★Também chamado de modelo Within, analisa os indivíduos entre eles mesmos ("intra") ao longo do tempo.

★Considera a relação e compara a mesma empresa em vários anos, ou seja, se não houver dados para a empresa em todos os anos, ele desconsidera todas as informações da empresa.

★É mais indicado para análises que variam ao longo do tempo.

## Efeitos Aleatórios (EA ou RE)

Considera que o intercepto assume um valor médio comum entre os indivíduos e os coeficientes angulares variam ao longo do tempo e também entre indivíduos.

★Uma das grandes desvantagens de utilizarmos regressão de painel com efeitos fixos é que não podemos incluir no lado direito da equação variáveis explicativas que não variam no tempo (exemplo, setor econômico da empresa)

★Quando os termos i não são correlacionados com os erros 𝜖𝑖,𝑡, é possível empregar estimadores de efeitos aleatórios.

★Esses estimadores permitem a inclusão de variáveis explicativas que não variem no tempo, o que pode ser muito útil em várias situações.

★Assim, são analisados por meio de modelo Between, considerando a análise "entre" diferentes indivíduos ao longo do tempo.

## Comparação e Escolha dos Modelos

Após a evidenciação dos modelos de regressão dos tipos agrupado (pooled), de efeitos fixos e de efeitos aleatórios, é preciso efetuar os testes para definir qual é o melhor modelo e que, por consequência, deverá ser considerado.

![](Comparando%20os%20modelos.png)

### Como operacionalizar no R

#### Rodando os modelos

*Utilizamos a função **plm***

A função plm é mais adequada para ajustar modelos de regressão com dados em painel, que podem incluir modelos pooled, efeitos fixos e efeitos aleatórios.

A biblioteca plm (Panel Data Linear Models) no R é utilizada para realizar regressão em dados em painel, onde você tem observações para as mesmas unidades de análise (por exemplo, países, empresas, indivíduos) em diferentes momentos.

A função plm permite ajustar modelos pooled, efeitos fixos e efeitos aleatórios, além de outros modelos relacionados a dados em painel.

-   index é o argumento que especifica a(s) unidade(s) de análise

-   model é o argumento que especifíca o modello (Pooled, EF ou EA)

**Pooled**

```{r}
mod_ACCY_Pooled <- plm(formula = ACCY_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + Estim + factor(LCS),
                   data = Base_GECAT,
                   index = c ("Ticker","Year","Country"),
                   model = "pooling")

summary(mod_ACCY_Pooled)
```

**Efeitos Fixos**

O modelo "within" controla os efeitos fixos individuais;

O modelo "fd" estima interceptos específicos para cada grupo; e

O modelo "between" estima interceptos médios para cada grupo.

A escolha do modelo depende dos seus objetivos de pesquisa e da estrutura dos seus dados em painel.

```{r}
mod_ACCY_EF_within <- plm(formula = ACCY_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + Estim + factor(LCS),
                   data = Base_GECAT,
                   index = c ("Ticker","Year","Country"),
                   model = "within")

mod_ACCY_EF_fd <- plm(formula = ACCY_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + Estim + factor(LCS),
                   data = Base_GECAT,
                   index = c ("Ticker","Year","Country"),
                   model = "fd")

mod_ACCY_EF_between <- plm(formula = ACCY_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + Estim + factor(LCS),
                   data = Base_GECAT,
                   index = c ("Ticker","Year","Country"),
                   model = "between")

export_summs(mod_ACCY_EF_within, mod_ACCY_EF_fd, mod_ACCY_EF_between)
```

**Efeitos Aleatórios**

```{r}
mod_ACCY_EA <- plm(formula = ACCY_w1 ~ POST*Emerg + SIZE_w1 + ROA_w1 + Estim + factor(LCS),
                   data = Base_GECAT,
                   index = c ("Ticker","Year","Country"),
                   model = "random")

summary(mod_ACCY_EA)
```

Comparando os resultados

```{r}
export_summs(mod_ACCY_Pooled, mod_ACCY_EF_between, mod_ACCY_EA)
```

Escolhendo o Melhor Modelo

#### Pooled x EF

Teste F de Chow \*A hipótese nula é de que há igualdade nos interceptos e nas inclinações para todos os indivíduos, caracterizando o modelo de dados agrupados (pooled). Se valor p\<0,05, o modelo de Efeitos Fixos é melhor do que o modelo Pooled.

```{r}
pFtest(mod_ACCY_EF_between, mod_ACCY_Pooled) #EF
```

#### Pooled x EA

Teste de Breusch e Pagan \*A aceitação da hipótese nula implica que o modelo de dados agrupados (pooled) é preferível. Se valor p\<0,05, o modelo de Efeitos Aleatórios é superior ao modelo Pooled.

```{r}
plmtest(mod_ACCY_Pooled, type="bp") #EA
```

#### EF x EA

Teste de Hausmann \*Se o teste rejeitar a hipótese nula, o modelo de Efeitos Fixos é o mais adequado. Se valor p\<0,05 o modelo de Efeitos Fixos foi considerado superior ao modelo de Efeitos Aleatórios.

```{r}
phtest(mod_ACCY_EF_between, mod_ACCY_EA) #EF
```

## Exportando o Output

Conhecendo os nomes das variáveis

```{r}
export_summs(mod_ACCY_Pooled, mod_ACCY_EF_between, mod_ACCY_EA)
```

Exportando os modelos (pode ser apenas um ou mais outputs)

```{r}
export_summs(mod_ACCY_Pooled, mod_ACCY_EF_between, mod_ACCY_EA,
             scala = F,
             model.names = c("PAA_QA_Pooled","PAA_QA_EF","PAA_QA_EA"),
             coefs = c("Intercept" = "(Intercept)", 
                       "POST" = "POST",
                       "Emerg" = "Emerg",
                       "POST*Emerg" = "POST:Emerg", 
                       "SIZE" = "SIZE_w1", 
                       "ROA" = "ROA_w1", 
                       "Estim" = "Estim",
                       "Growth" = "factor(LCS)Growth", 
                       "Mature" = "factor(LCS)Mature", 
                       "Shake-out" = "factor(LCS)Turbulence", 
                       "Decline" = "factor(LCS)Decline"),
             error_pos = c("same", "below", "right"),
             bold_signif = 0.05,
             borders = 2,
             outer_borders = 2,
             statistics = c(N = "nobs.1", R2 = "r.squared",
                            adj.R2 = "adj.r.squared", p.value = "p.value", 
                            "GL" = "df", AIC = "AIC", "logLik" = "logLik",
                            "Pseudo R2" = "pseudo.r.squared"),
             scale = TRUE, robust = TRUE, digits = 3, vifs = TRUE,
             note         = "{stars}. Erros padrões robustos clusterizados",
             title = "Table X - Regression Models",
             to.file = "docx",
             file.name = "C:/Users/Usuário/OneDrive/Oficina Regressão/Output_Regressão.docx")
```

*\**Não importa a ordem que estavam as variáveis nos outputs, a ordem em que irão aparecer na tabela final é a mesma que for indicada no argumento "coefs".

\*Ao usar a função export_summs, "robust=true" indica que você deseja calcular estatísticas robustas para o modelo. Estatísticas robustas são usadas para fornecer inferências mais confiáveis quando as suposições de homocedasticidade (variância constante) e normalidade dos resíduos são violadas, o que pode ocorrer em modelos de regressão.

# Interpretando os Resultados da Regressão

**R-quadrado (R²):**

O R-quadrado mede a proporção da variabilidade da variável dependente que é explicada pelo modelo. Ele varia de 0 a 1, e um valor mais próximo de 1 indica que o modelo explica uma grande parte da variabilidade dos dados.

```         
No entanto, o R-quadrado por si só não indica a validade do modelo; é importante considerar outras métricas e diagnósticos.
```

**Estatística F:**

Se a estatística F resultante for grande o suficiente e o valor-p associado for menor que o nível de significância escolhido (geralmente 0,05), concluímos que o modelo é estatisticamente significativo, ou seja, pelo menos uma das variáveis independentes tem uma relação linear significativa com a variável dependente.

**Coeficientes de regressão:**

Os coeficientes de regressão são estimativas dos efeitos das variáveis independentes sobre a variável dependente. Eles indicam o tamanho e a direção do impacto que cada variável independente tem sobre a variável dependente, mantendo as outras variáveis constantes.

-   Um coeficiente positivo indica que um aumento na variável independente está associado a um aumento na variável dependente (relação direta).

-   Um coeficiente negativo indica que um aumento na variável independente está associado a uma diminuição na variável dependente (relação inversa).

> Para as variáveis categóricas (fatores) como *POST*, *Emerg* e os fatores de nível *LCS*, cada nível comparado ao nível de referência terá um coeficiente associado. A interpretação deve ser feita considerando qual nível específico está sendo comparado com o nível de referência.

**Estatísticas t e p:**

As estatísticas t e os valores-p (p-values) são usados para avaliar a significância estatística dos coeficientes de regressão.

-   Um valor-p baixo (geralmente menor que 0,05) indica que o coeficiente é estatisticamente significativo, ou seja, há evidências suficientes para afirmar que o efeito é diferente de zero.

-   Um **valor-p alto** indica que o coeficiente não é estatisticamente significativo e **!não podemos afirmar que o efeito é diferente de zero!**.

**Erros-padrão dos coeficientes:**

Os erros-padrão dos coeficientes fornecem informações sobre a precisão das estimativas dos coeficientes. Quanto menor o erro-padrão, maior a precisão da estimativa.

\> Entendendo na prática:

```{r}
summary(mod_ACCY_EF_between)
```

# Resumindo...

```         
➔Calcular e analisar a estatística descritiva - observar se há *outliers* (winsorizar);

➔Verificar a normalidade dos dados - Matriz de Correlação - Shapiro-Wilk;

➔Estimação mais adequada ao modelo da pesquisa - *pooling*, efeitos fixos ou aleatórios: testes de Breusch-Pagan, Chow e Hausman ou com base na Teoria desconsiderando os testes estatísticos de estimação do modelo;
```

**Argumentação teórica** pode ser mais convincente que os próprios testes...

## EXPLIQUE ! ! ! É PRECISO CONVENCER O LEITOR

Testes de autocorrelação (teste Wooldridge), heteroscedasticidade (Wald Modificado) e multicolinearidade (Fator de Inflação da Variância - VIF);

Presença de autocorrelação e heterocedasticidade? Corrigir/tratar;

Operacionalizar a regressão;

Analisar os resultados e descrever as implicações.

# Referências

Favero, L. P., Belfiore, P., Souza, R. F. (2023). Data Science, Analytics and Machine Learning with R. 1. ed. Elsevier. 
